04.微刺激模式优化


我们的目标是优化多通道ITMS控制输入,以尽可能接近地重现每种独特触摸类型的自然触摸反应。具体而言,我们对系统输出与某个期望模板神经反应轨迹在有限时间内的偏差进行惩罚。我们首先将此优化问题表述为具有线性等式和不等式约束的二次成本函数。这种类型的问题称为二次规划,已得到充分研究,并且存在专门的算法用于高效多项式时间求解。解决此类控制问题的一种策略是不仅求解时间范围内的最优控制输入,还求解状态变量。然而,状态是输入(1)的隐式函数,优化程序必须通过线性约束强制这种动态关系。尽管这种公式包含更多变量和约束,但在利用问题结构时,实际上在计算上是有益的。


由于我们对电幅度的表示,优化问题还包含不等式约束。由于探索性微刺激序列仅由单一极性的脉冲组成,我们选择将输入约束为单一极性,以使所有优化刺激保持在近似线性范围内。改变极性会切换每个相邻电极上电流的流入或流出顺序,并且对负极性的反应与对正极性的反应并非线性相关。因此,我们对所有输入施加非负约束,以及最大输入边界,以使解保持在探索性序列期间探索的电流幅度范围内。与建模步骤一样,脉冲序列由每个刺激通道的610 Hz脉冲串组成。


设yd(t)表示时间t的期望神经轨迹。我们假设在时间t,可获得时间t到t+T?1的期望神经轨迹yd。时间范围T决定了控制器在优化控制输入时考虑的未来时间量。在实际(因果)应用中,该期望信号可以是预测响应模型的输出,该模型使用截至t的传感器信息,输出T?1个未来时间点的预测神经反应。或者,yd也可以是预先计算/记录的神经轨迹。在本研究中,我们将yd视为完全已知,即设置为每种触摸条件的刺激周围试验平均自然反应。控制器的主要目标是最小化施加输入序列下的系统输出y(t)与期望信号yd(t)之间的距离。我们将阶段τ的二次成本定义为优化目标是在上述约束下,最小化T个时间步的成本,可表述为其中优化针对u()(t,t+1,…,t+T?1)和x()(t+1,…,t+T)的值进行,Imax是最大电流限制,我们将其设置为探索性序列期间使用的最大电流值。模型的动态通过将当前输入和状态(x(t),u(t))与下一状态x(t+1)相关联的等式约束来强制实施。在这种情况下,系统演化是确定性的,优化不依赖于方程(1)中∫x或∫y的密度。


我们包含一个惩罚大电流的次要目标。这通过在公式(4)的成本函数中添加项μ||u(t)||?来实现,该术语惩罚输入的平方范数,其中μ是控制该惩罚相对重要性的加权参数。类似地,可以通过向阶段成本添加λv(t)?来节省输入的低通滤波版本的幅度,其中v(t)=v(t?1)+αu(t)(α是极点在(1?α)的基本单极低通滤波器)。这具有惩罚高幅度、缓慢变化的输入模式的效果。我们注意到,如果没有这种惩罚,一些效果较差的输入会被驱动以显著幅度持续刺激。尽管这些输入在控制范围内名义上实现了更好的输出跟踪,但它们以显著的超阈值幅度刺激,对测量的场电位没有太大相关影响。我们怀疑这些是影响S1部分区域的通道,而我们的记录阵列仅部分捕捉到这些区域。在我们的实验中,相对加权因子μ和λ根据每只动物的电流注入和跟踪误差之间的权衡手动选择。相比之下,低通滤波器参数α固定为,其中Fs是采样频率,τlp(滤波器时间常数)设置为100毫秒。


这种对输入的滤波版本进行惩罚使用的方法非常相似。然而,在该研究中,优化是针对原始电流波形进行的,对缓慢电流注入的惩罚主要目的是限制电荷积累,这是已知的会导致电极腐蚀或触点附近组织损伤的因素。在我们的研究中,由于我们的优化是针对定型脉冲序列的幅度包络,因此每个双相脉冲后电荷平衡会立即恢复。相反,滤波后的惩罚对缓慢、持续的脉冲序列设置了选择性成本。


公式(5)中的最优控制问题在控制输入和状态上是二次的。在我们的公式中,被优化的变量是z=[x(t),u(t+1),u(t+2),…,u(t+T-1),x(t+T)]的串联。这导致一组强制相邻时间点输入和状态的系统动态的等式约束,以及一组强制控制输入边界的不等式约束。由于公式(5)是凸的(即其关于z的二阶导数对所有z都是正定的),且其等式和不等式约束是线性的,因此该问题可以通过凸优化方法[39]易于处理地解决。通过利用仅对相邻时间点强制实施等式约束所带来的结构,运行时间为?(T(n?+m))——与不利用该结构时的运行时间?((T(n+m))?)相比有了巨大改进。关于通过内点法求解(5)所使用的特定算法的详细信息。


我们模型中引入的输入门控特征使系统成为非线性的。带有输入门控的状态转移为x(t+1)=A x(t)+B(gate(u(t))),其中gate(u(t))i=gate(ui(t))。为了解决这个问题,在每次迭代时,每个时间t的系统都围绕输入的当前值?(t)进行线性化,因此非线性输入相关性可以用线性时变项代替。准确地说,状态转移方程中的门控输入可以用其一阶泰勒近似代替。因此,状态转移方程可以被视为时变但线性的函数x(t+1)=A(t)x(t)+B?(t)u(t),其中B?(t)=diag(g(u?(t)))。作为一种阻尼措施,每次迭代后取新解和当前解的组合,即z?βz_new+(1-β)z。在我们的实验中,我们发现最初将β设置为1.0,然后在每次迭代时将β按0.97缩放,直到β=0.3,这对于找到良好的解是合适的。


我们探索的另一种方法是迭代线性二次调节器(iLQR)。这也使用系统动态的连续时变线性化来应对门控非线性。iLQR还使用了一种基于LQR的不同方法来更新输入和状态,该方法产生形式为u(t)=f(x(t))的线性状态反馈策略,而不仅仅是输入轨迹。我们发现在我们的实现中,iLQR的输入解与内点法的输入解没有显著差异。


最初,针对每种触摸条件(部位、幅度、持续时间)离线找到最优控制输入。在每种情况下,期望轨迹是试验平均的自然触摸响应,其中t=0对应触摸开始,T=保持持续时间+50毫秒。微刺激模式从触摸开始时开始,一直持续到T。一旦找到,优化的经颅磁刺激(ITMS)模式就通过腹后外侧核(VPL)阵列施加。每种触摸类型的模式都以与每个前爪位置的原始自然触摸刺激相同的顺序和时间施加。我们定义“虚拟触摸”一词来指代用对应于特定类型自然触摸的优化微刺激模式进行刺激。